طراحی و ارزیابی یک سیستم کدکننده/کدگشا برای فشرده سازی تصاویر اسناد متنی چاپی

پایان نامه
  • وزارت علوم، تحقیقات و فناوری - دانشگاه تربیت مدرس
  • نویسنده هادی گرایلو
  • استاد راهنما مجتبی لطفی زاد
  • تعداد صفحات: ۱۵ صفحه ی اول
  • سال انتشار 1388
چکیده

در این رساله، یک سیستم جامع کدکننده/کدگشا مبتنی بر مدل محتوای مخلوط شده در راستا (mrc) برای فشرده سازی با اتلاف اسناد چاپی و با تأکید بر ویژگیهای رسم الخط فارسی/عربی ارائه می گردد. این سیستم قابل انعطاف (تنظیم) بوده و برای تحقق آن بایستی موارد زیر لحاظ شوند: نیاز به ارتباط مناسب بلوکهای عملیاتی مختلف، روشی برای فشرده سازی تصاویر (متنی) دودویی، روشی برای جداسازی متن از پس زمینه ی آن، فنونی به منظور استفاده ی بهینه از ویژگیهای تصاویر متنی برای افزایش میزان فشرده سازی و بالاخره، فنون مناسبی برای کدگذاری دنباله های عددی و یا الگوهای تصویری مختلف. در این رساله برای هر یک از این موارد، روشها یا فنونی پیشنهاد می شود. نوآوریهای عمده ی این رساله عبارتند از طراحی بلوکهای عملیاتی مختلف و پیونددهی سازواره ای مناسب آنها در قالب مدل mrc، ارائه ی یک روش مناسب برای جداسازی متن از پس زمینه، ارائه ی یک روش موثر برای فشرده سازی تصاویر متنی دودویی، پیشنهاد طرحهایی کارآمد برای کدگذاری لایه های پیش زمینه و پس زمینه، و بالاخره، مدل کردن تغییرات لبه های متنی با یک تابع چندجمله ای. در این تحقیق، کارایی هر روش پیشنهادی، از جنبه های مختلف شامل کارایی فشرده سازی (بر طبق معیارهای نرخ/میزان فشرده سازی و میزان وفاداری)، مدت زمان اجرا، و کارایی جداسازی (بر طبق معیارهای دقت، یادآوری، متوسط نرخ بازشناسی، و متوسط امتیاز نظرسنجی) مورد ارزیابی و مقایسه با بهترین روشهای متناظر امروزی قرار گرفته است. برای فشرده سازی تصاویر متنی دودویی (یا لایه ی پوشش مورد استفاده در مدل mrc) برای اولین بار، روشی مبتنی بر فن انطباق الگوی یک بعدی پیشنهاد شده است که میزان فشرده سازی آن در حالت بدون اتلاف تا 7/3 برابر بیشتر از میزان فشرده سازی روش jbig2 و در حالت با اتلاف نیز تا 4/3 برابر بیشتر از میزان فشرده سازی روش jb2 می باشد. مهمترین ایراد این روش، حجم محاسباتی نسبتاً بالای آن است. برای جداسازی متن از پس زمینه، روشی پیشنهاد شده است که مناسب متون فارسی و عربی است، زیرا قادر به جداسازی مناسب اجزای متنی کوچک مانند نقطه و سرکش حروف می باشد. ما برای اولین بار، روش جداسازی خود را برطبق سه معیار "خوانایی"، "خوشایندی" و "میزان قابلیت بازشناسی نوری حروف" (ocr) ارزیابی کرده ایم. میزان "خوانایی" را برطبق معیارهای کمّی "دقت"، "یادآوری" و "هارمونیکی وزن دار" به صورت عددی بیان و آنها را با مقادیر متناظر برای روش مبتنی بر k-means (مورد استفاده در روش djvu) مقایسه کرده ایم. مقادیر معیارهای دقت، یادآوری و هارمونیکی وزن دار برای روش جداسازی پیشنهادی به ترتیب برابر 95%، 92%، 93% و برای روش مبتنی بر k-means به ترتیب برابر 90%، 79% و 84% می باشند. میزان "خوشایندی" را بر طبق معیار متوسط امتیاز نظرسنجی (mos) و با استفاده از نظرات 45 نفر مشاهده گر به صورت کمّی محاسبه کرده ایم. مقدار این معیار برای روش پیشنهادی برابر 4/5 و برای روش مبتنی بر k-means برابر 3/1 به دست آورده شده است. میزان "قابلیت بازشناسی نوری حروف" را نیز با محاسبه ی معیار متوسط نرخ بازشناسی ارزیابی کرده ایم. این معیار برای تصاویر جداسازی شده توسط روش پیشنهادی برابر 94% و برای تصاویر حاصل از روش مبتنی بر k-means برابر 83% محاسبه شده است. برای ارزیابی فشرده سازی با اتلاف تصاویر (رنگی) اسناد از دو معیار میزان فشرده سازی و متوسط امتیاز نظرسنجی استفاده کرده ایم. از نظر مقایسه ی میزان فشرده سازی با اتلاف تصاویر اسناد رنگی، میزان فشرده سازی روش پیشنهادی تا 2/3 برابر بیشتر از مقدار آن برای روش djvu است. همچنین، متوسط امتیاز نظر سنجی برای روش پیشنهادی برابر 4/3 و برای روش djvu برابر 3/2 به دست آمده است. در تمامی موارد فوق الذکر، بیشترین مقادیر میزان فشرده سازی مربوط به تصاویر اسناد فارسی و عربی بوده است. علاوه بر معیارهای مختلف بیان شده تاکنون، معیار"متوسط مدت زمان اجرا" نیز برای بیشتر روشها محاسبه گردیده است که معمولاً روشهای پیشنهادی متوسط مدت زمان اجرای بیشتری نسبت به روشهای مورد مقایسه داشته اند.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

طراحی و پیاده‌سازی یک سیستم بازیابی اسناد چاپی فارسی

هدف: معرفی، دسته‌بندی، و نقد پژوهش‌‌ها دربارۀ سیستم‌های بازشناسی و بازیابی اسناد چاپی فارسی و پیشنهاد یک سیستم بازیابی اسناد چاپی با رویکردی نو. روش‌شناسی: شیوه‌ای جدید با رویکرد جداسازی، طراحی و سپس پیاده‌سازی شده است. برای آموزش و آزمایش سیستم، پایگاه داده‌ای شامل تصویر 50 صفحه متن فارسی در 5 قلم مختلف فراهم آمد. از نیمی از این داده‌ها برای آموزش و نیمی...

متن کامل

طراحی سیستم کد کننده/کد گشابرای فشرده سازی تصاویر متنی مبتنی بر مدل محتوای ترکیبی

امروزه، بیشتر تولیدات تاریخی، هنری و علمی روی کاغذ منتشر می شوند. بسیاری از کتابخانه های بزرگ دنیا در حال تبدیل منابع خود به شکل دیجیتال می باشند زیرا ذخیره اطلاعات مربوط به اسناد مختلف به شکل دیجیتالی، تا حد زیادی مقرون به صرفه تر از نگهداری آنها در قفسه های کتابخانه است. بنا به دلایل اقتصادی، برای ذخیره چنین حجم عظیمی از اطلاعات به فشرده سازی آنها نیاز داریم. هدف در این پایان نامه ارائه روش...

طراحی یک سیستم خبره برای ارزیابی و انتخاب تأمین کننده

یکی از فاکتورهای مهم در مدیریت زنجیرۀ تأمین، انتخاب تأمین‌کنندۀ مناسب است، به‌طوری‌که تصمیم‌گیری صحیح در این مورد سبب کاهش هزینه‌های خرید، ایجاد رابطۀ پایدار با تأمین‌کننده‌ها و تقویت استراتژی رقابتی در بازار می‌شود. در این مقاله ابتدا با بررسی مقالات مرتبط، معیارهای مهم در امر انتخاب به‌دست آمد و سپس با روش دلفی فازی، وزن­دهی معیارها و ارزیابی گزینه‌ها انجام گرفت. با رتبه‌بندی گزینه‌ها به‌روش ...

متن کامل

طراحی یک سیستم پشتیبان تصمیم گیری برای ارزیابی مشتریان

در این مقاله یک سیستم پشتیبان تصمیم گیری جهت ارزیابی مشتریان ارائه می شود. این سیستم به خصوص می تواند در شرکت های انحصاری کاربرد داشته باشد. این مقاله توسعه یافته پژوهش چامودراکاس و همکاران است که در آن صرفا بر اساس یک مدل تاپسیس فازی ارزیابی و انتخاب مشتریان صورت گرفته است. مدل پیشنهادی شامل 6 روش مختلف است که کاربر می تواند به دلخواه از بین آنها یکی یا ترکیبی را انتخاب کند. سیستم نرم افزاری م...

متن کامل

یک چارچوب جدید آشکارسازی و تشخیص لوگو در تصاویر متنی

آشکارسازی و تشخیص لوگو یک بخش اساسی در یک سیستم خودکارسازی اداری جهت بایگانی و بازیابی تصاویر متنی می‌باشد. در این مقاله، ما یک چارچوب جدید آشکارسازی و تشخیص لوگو مبتنی بر یک استراتژی ناحیه‌بندی و طبقه‌بندی پشت سر هم در تصاویر متنی پیشنهاد می‌کنیم. در این چارچوب، با استفاده از یک الگوریتم ناحیه‌بندی دو مرحله‌ای (شامل الگوریتمهای ناحیه‌بندی مبتنی بر تبدیل ویولت و آستانه‌گذاری) و طبقه‌بندی سلسله ...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه تربیت مدرس

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023